目前 OpenAI 最新的產品是 o1,主要是加入了一層 CoT (Chain of Thoughts),大幅提昇「透過逐步拆解來解決複雜問題」的能力。推出之後很多人拿來玩各種考試,幾乎都是高分通過。熱心網友拿前幾年台灣的大學入學測驗來測試,結果分數高達 PR88,分數足以上絕大多數的系所。
然而,這也不是故事的全貌。
介紹兩篇研究:
「‘In awe’: scientists impressed by latest ChatGPT model o1 」這篇 Nature 上的文章指出,雖然 o1 在很多考試中贏過博士級的考生,但其實這個模型的「幻覺」(hallucination)比前幾代單純的 LLM 更加嚴重。這個產品與其拿來引導新手,毋寧更適合作為專家的助手(因為專家才能辨別AI 錯誤的部份加以修正)。
「LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench」這篇研究直接拿 o1 來做 PlanBench(一個專門用來測試 LLM 規劃與推理能力的題庫),結果發現雖然在成績上比起 LLM 有大幅提昇,但其實依然不夠好,要號稱「大型推理模型」(Large Reasoning Model, LRM)似乎還需要一些努力。
沒有留言:
張貼留言